JCIM | 用深度学习基于结构从头设计小分子
文章简介:
本文于2021年11月发布在JCIM,研究团队隶属于TSC创新实验室,他们提出一种深度学习方法从头设计小分子化合物,相较于以往大部分基于配体的设计,该方法基于结构设计新型小分子,并引入强化学习模型,获得更高活性的药物。
要解决的问题:
近年来,深度学习在药物设计领域的应用已经崭露头角。研究表明,深度学习还可以针对特定的目标蛋白质设计出具有动态物理化学性质优化的新分子。在深度学习的帮助下,将早期药物设计和优化到实验验证环节的时间大大缩短。
针对靶蛋白的药物设计方法可大致分为基于配体和基于蛋白质结构的方法,大多数利用深度学习的药物设计研究都是基于配体。这类方法通常依赖现有靶点的特异性配体数据集,限制了对新靶点蛋白质和已知配体数据有限的蛋白质的效用。
结果:
在此次研究中,作者团队提出一种半监督的多模式深度学习模型,运用目标蛋白质的活性位点结构的相关知识,设计出新分子,并在强化学习框架中优化分子生成过程。
团队将该模型在两个被充分研究的蛋白质JAK2和DRD2的抑制剂进行验证,结果表明强化学习后的模型平均可以生成90%的有效分子,且具有复制现有目标蛋白抑制剂的能力,证明了该方法的实用潜力。
以下是详细的从头设计小分子药物的方法:
条件分子生成器
(1)用图表示蛋白质活性部位,预训练GAT-VAE模型
靶蛋白的活性位点由与小分子(配体)相互作用的关键氨基酸残基组成,将靶蛋白活性位点用图表示,其中节点代表氨基酸,边代表两个氨基酸之间的相互作用。将氨基酸分为七类,以及它们作为氢键供体和氢键受体的能力,从而形成总共九个节点特征,从而对图中的节点进行特征化。在这个过程中,引入了图注意力神经网络(Graph Neural Networks),形成一个蛋白质的GAT-VAE模型。
从PDBbind和scPDB数据库中整理活性位点的数据集,去除非标准氨基酸的重叠、冗余复合物和活性位点后,获得总共5981个用于训练GAT-VAE模型的活性位点。初始学习率为0.001,该数据集被分成小批量,每个小批量包含256个图形。该模型在特斯拉V100 GPU上训练了100个epochs。GAT-VAE模型将活性位点图嵌入到潜在表示中,以便以后用于条件分子生成。
对GAT-VAE模型进行预训练,学习活动位点图
(2)分子以SMILES格式表示,预训练SMILES-VAE模型
将ChEMBL数据库中的类药小分子用SMILES格式表示,由此获得160万SMILES格式的小分子,用于预训练生成模型。SMILES-VAE模型的深层神经网络结构由编码器和解码器组成,两者都有两层1024个双向选通循环单元(GRU)。初始学习率为0.0005,批次大小为256,模型在特斯拉V100 GPU上训练了100个epochs。
(3)两者结合,形成条件分子生成器
结合预先训练的GAT-VAE和SMILES-VAE模型,调节分子生成过程,以生成特定于靶蛋白的分子。为了调节SMILES-VAE模型,将GAT-VAE编码器的输入图的潜在向量与SMILES-VAE编码器的潜在向量连接起来,以形新的潜在向量(z)。
条件分子生成器用独特的活性位点进行预训练,数据来自PDBbind数据集,与没有预训练的模型相比,预训练能使SMILES-VAE解码器能够学习解码组合的潜在向量(z),具有更高的化学有效性。
c:GAT-VAE模型与SMILES-VAE模型相结合,形成条件分子生成器 d:预训练药物靶向亲和力(DTA)预测模型以预测生成的小分子的生物活性
预训练药物-靶点亲和力(DTA)预测模型
药物-靶点相互作用预测是药物发现过程中重要的部分,研究团队引入了一个靶标亲和力模型(DTA)作为评估模型,用于评估生成的候选分子的质量好坏。这个模型是团队基于以往的研究而来,该文并未详细叙述,主要用拓展链接交互指纹(ECIF)作为输入的梯度提升树(GBT)模型。
DTA预测模型需要针对各种靶蛋白的活性小分子训练数据集,该数据集应包括生物活性谱由低到高的小分子,提升生成的小分子DTA模型的通用性。训练该模型蛋白质—配体复合物数据来自PDBbind中的常规集和精炼集,共计9584个独特数据点,以ECIF指纹和170个RDKit化学描述符作为输入,训练DTA模型。
用RL优化小分子
强化学习框架将条件分子生成器(agent)和DTA模型(critic)结合起来,优化结合亲和力的新型小分子。单次迭代中,使用条件分子生成器对50个分子进行采样,以获得输入活性位点图,并将其传递给DTA模型进行评估。生成和优化一直循环进行,直到生成的小分子的生物活性分布得到充分优化。RL训练过程的终止依赖于靶蛋白,并且考虑了多个标准,包括生成分子的有效性、重复的存在、生物活性优化的程度以及训练数据集(ChEMBL数据库)中分子的复制率。
结果
结果1:对SMILES—VAE模型进行评估,各项指标良好
研究人员首先对SMILES—VAE模型进行评估,评价预训练模型生成的分子质量。从CuacaMol标准化基准的评估框架来看,SMILES—VAE模型新生成的小分子在有效性、唯一性、新颖性、散度(KLD)和Fréchet ChemNet距离(FCD)等指标都有优异的表现。
SMILES-VAE模型从潜在表征中解码SMILES字符串的准确率为93.22%,样本小分子中具有99%的唯一性和96%的新颖性。与基线VAE模型相比,预训练SMILES-VAE模型在有效性方面表现更好。
结果2:生成的小分子与验证数据集的相似性较高
选择已知抑制剂JAK2和DRD2的蛋白配体来构建验证数据集,经过预处理后,最终获得JAK2和DRD2验证数据集分别包含1103和4221种化合物。验证集配体与受体组合不属于任何训练集。将新生成的分子与两种靶蛋白的小分子与Janus激酶2(JAK2)和多巴胺受体D2(DRD2)进行比较。
对于每个靶蛋白,使用相应的结合位点图分别训练条件分子生成器,直到观察到生物活性值分布(由DTA模型预测)发生充分变化。由下图可知(a、c部分),经过强化学习后的针对两种靶蛋白生成小分子化合物的活性预测有明显提升。
图ac:基于DTA模型预测强化学习前后JAK2和DRD2产生的小分子的生物活性分布
强化学习后,从训练后的生成模型中采样了10000个分子(去除了化学上的无效分子),其中有90%在化学上是有效的,表明该模型有效克服了灾难性遗忘。
在分子相似性方面,计算生成的小分子与特定目标分子数据集的相似性,该数值由Tanimoto系数(TC)表示,TC截止值为0.75。结果显示,生成的小分子中分别有30个和80个满足JAK2和DRD2蛋白质的TC截止要求。此外,还发现5个生成的小分子与现有的DRD2抑制剂(TC=1.0)相同,证明了条件生成模型具有复制目标蛋白质现有抑制剂的能力。
不过TC值也有其局限性,它不考虑两个分子中存在的官能团的特征相似性。研究人提取了基于配体的药效团用于筛选生成的小分子,如果小分子与目标药效团的特征重叠分数至少为最大特征重叠分数的一半,则认为小分子是命中。
从药效团的筛选结果可以看出,87%的JAK2特异性生成分子和84%的DRD2特异性生成分子可以被各自蛋白质的基于靶向特异性配体的药效团所覆盖,生成的小分子捕获了靶标活性部位的关键药效团特征。
基于药效团筛选JAK2和DRD2蛋白质生成小分子的结果
结果3:GAT-VAE模型成功预测DRD2活性点位与残基的相互作用
分析GAT-VAE模型中DRD2活动位点图中每个残基及其邻域的注意系数,经过一系列注意力权重的分配,注意力系数大于0.5,那么该结合位点的关键残基和相互作用则被视为重要。
活性位点残基的注意系数热图
从图中可知,在149个相互作用系数中,有17个注意力系数(αij)高于0.5,有8个活性位点残基(Leu94、Trp100、Asp114、Thr119、Ile184、Phe198、His393和Tyr416)的注意系数大于0.5。而这8个活性位点残基与文献中展现的的各种高选择性DRD2抑制剂相互作用相同。
结果表明,GAT-VAE模型可以区分关键结合位点残基和相互作用,基于注意的方法在从生物学角度更好地理解深度神经网络模型学习的特征方面的有用性。
结论
简单来说,该方法利用一个图注意网络和一个堆栈增强的递归神经网络的组合来形成一个条件生成模型。本研究中开发的方法可用于任何通过实验或分子建模方法已知其三维结构的目标蛋白质。基于靶蛋白结构的分子设计,相较于直接的大规模筛选,成本更低,且有效性和生物活性更强。该设计方法有望在多个领域进行应用。
关于团队:
本论文的研究团队来自TATA集团旗下的TSC创新实验室生命科学部,该实验室致力于在各领域寻找IT技术解决方案,包括金融、机器人、生命科学、工业等领域。研究团队专注于深度学习在药物研发中的应用,已发布了一系列文章,包括用深度学习设计新的COVID-19疗法,团队最新一篇论文待通过同行评审。
来源:
Krishnan S R, Bung N, Vangala S R, et al. De Novo Structure-Based Drug Design Using Deep Learning[J]. Journal of Chemical Information and Modeling, 2021.
—The End—
推荐阅读